package com.bigdata.core.action

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 取出RDD中的前N个元素
 */
object Demo4_take {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("take").setMaster("local")
    val sc = new SparkContext(conf)
    sc.setLogLevel("error")

    // path可以是一个目录，如果是目录的话，会加载这个目录下的所有文件
    // 当前运行模式是local，如果是在集群中运行，那么path指的是HDFS中的path
    val lines = sc.textFile("data/words")

    // 排序取topN
    val topN: Array[String] = lines.sortBy(lines => lines, false).take(3)
    topN.foreach(println)

  }
}
